科技前線Google 推出 TurboQuant AI 記憶體壓縮演算法Google 推出 TurboQuant AI 記憶體壓縮演算法,宣稱可將 LLM 工作記憶體需求縮減 6 倍並大幅降低營運成本,但目前缺乏獨立學術驗證。Jason·2026年3月26日
科技前線AI 效率大突破:新型 KV 快取壓縮技術將 LLM 記憶體需求降低 50 倍MIT 研究人員發表了 Attention Matching 技術,能將大語言模型的 KV 快取記憶體需求降低 50 倍,且不失精度。同時 Google 開源了基於 Gemini 3.1 的持續性記憶體代理,標誌著 AI 從外部向量資料庫轉向原生記憶體工程。Jason·2026年3月7日